智能论文笔记

UKP-SQuARE v2 Explainability and Adversarial Attacks for Trustworthy QA

Rachneet Sachdeva , Haritz Puerto Tim Baumgärtner , Sewin Tariverdian , Hao Zhang , Kexin Wang , Hossain Shaikh Saadi , Leonardo F. R. Ribeiro , Iryna Gurevych

分类：自然语言处理

2022-08-19

问答（QA）系统越来越多地部署在支持现实世界决策的应用程序中。但是，最新的模型依赖于深层神经网络，这些网络很难被人类解释。固有的可解释模型或事后解释性方法可以帮助用户理解模型如何达到其预测，并在成功的情况下增加对系统的信任。此外，研究人员可以利用这些见解来开发更准确和偏见的新方法。在本文中，我们介绍了Square V2（Square的新版本），以根据图形和基于图形的说明等方法进行比较模型提供解释性基础架构。尽管显着图对于检查每个输入令牌对模型预测的重要性很有用，但来自外部知识图的基于图的解释使用户能够验证模型预测背后的推理。此外，我们提供了多种对抗性攻击，以比较质量检查模型的鲁棒性。通过这些解释性方法和对抗性攻击，我们旨在简化对可信赖的质量检查模型的研究。 Square可在https://square.ukp-lab.de上找到。

translated by 谷歌翻译